Background of Reinforcement Learning

增强学习

增强学习的思想来自于对自然学习的观察，比如人类获取知识的主要途径就是通过与环境的交互iteractions。增强学习问题研究what to do，即如何从situations映射到actions，从而最大化一个数值形式的reward。本质上看，这是个闭环问题closed-loop，因为actions会影响后来的输入，即situations。最有趣，也是最有挑战性的一点是，actions不光影响即时的reward，也会影响后续所有的rewards。

增强学习不同于当前机器学习领域研究最多的监督学习。监督学习从标注训练集中学习，每个样本是一个situation和正确的action的集合。比如常见的分类任务中，给定一幅图像（situation），算法需要给出对应的分类（action）。监督学习的目标是实现正确的泛化，即能够正确地应对训练集中未出现过的situation。但是对于交互式的问题，监督学习并不适用。因为在交互问题中，算法无法得到足够而正确的标注样本进行训练。agent必须从自身的经验中学习。

增强学习也不同于无监督学习。无监督学习通常关注于从未标注数据中寻找隐藏的分布结构。

因此，增强学习是与监督学习和无监督学习并列的关系。

exploration-exploitation dilemma

增强学习要面临的挑战是探索（exploration）和开发（exploitation）之间的trade-off。为了获得大量reward，agent必须偏向于选择那些它过去尝试过，并被证明能够高效产生reward的actions。但是与此同时，为了探索这些actions，agent也必须尝试那些之前没有选择过的action。因此，agent必须exploit已知的内容以获取最大reward，也必须保证一定的explore，以助于将来做出更好的action选择。

###
增强学习的另一个特点是，它明确地从全局角度考虑了一个目标导向的agent与未知环境的交互问题。

增强学习基于一个完整的、交互式的、目标导向的agent。agent有明确的目标，能够感知他们所在的环境的某些方面，并且能够选择actions来影响环境。因为增强学习涉及了规划的问题，所以agent必须考虑规划（planning）和实时动作选择（real-time action selection）之间的相互影响，以及如何获取和改善环境模型。

这和许多其他只关注子问题的方法不同。（可能意思是说不是general的）。比如监督学习并没有明确地解释学习到的能力为什么会work。(挖个坑，等理解深点再来补充)

增强学习的组成元素

policy

给定一个时间状态，policy决定了agent会做出什么行动。粗略地讲，policy将感知到的环境状态映射到要采纳的动作。某种程度上有点类似生物学中的条件反射。policy可能是简单的映射函数或者数值表，也可能是复杂的搜索过程。policy是一个agent的核心，决定了agent的行为。一般，policy都是有随机性的（stochastic）。（可能是为了保证探索和开发之间的平衡）

reward

reward信号定义了增强学习的目标。每个时间节点，环境都会给agent一个相应作为reward。而agent唯一的目标就是在长时运行中最大化reward总和。所以说，reward是agent改变policy的动力。

value function

reward信号表示在某个时刻的感知中，什么是有益的；而value function则是从长远的角度考虑。粗略地讲，某个时刻的value，等于该状态的reward，累积后续所有预期状态的reward，得到的reward总和。所以，value function给agent带来了长远的规划能力。

environment model（optional）

env model是对环境的建模，实现如下功能：给定一个state和action，model会反馈出下一个state和reward。

样例 Tic-Tac-Toe

Tic-Tac-Toe是一个简单的棋盘类游戏，规则有点类似五子棋。两个棋手对战，轮流放棋子，在一个三乘三的棋盘中，首先完成一行、一列或一条对角线的一方获胜。

看起来很简单的游戏却很难用传统的方法来解决。比如动态规划需要知道对手的完整表述，包括对手在某个状态下采取什么行动的概率。这在实际中是不可能得到的。

进化方法（evolutionary method）直接搜索policy space，寻找一个胜率最高的policy。例如，遗传算法（genetic algorithm）会维持并进化一个population，在多次迭代中搜索最优的policy。

基于value function的方法则采用另外一种思路。首先，建立一个数表，代表所有可能的states和它们对应的胜利概率估计。比如，某个状态中，有一行全部被agent的棋子占据，则该状态对应的value就是1；如果全部被对手的棋子占据，则value为0。除了这两种极端情况，其他状态的初始value被设定为0.5。这个表就是value function的具体形式。在游戏中，我们观察一次行动（即放置一颗棋子到棋盘上任意空位处）可能会产生的states（不同的棋子摆放格局）和它们对应的表中的value。大多数情况下，我们会依据贪婪的原则选择value最大的那个state对应的行动，称作greedy move；但是有的时候也会随机地选择行动，称作exploratory move。

在greedy move之后，需要更新move之前的状态的value。设s表示move前状态，s’表示move之后的状态，V(:)表示value function，$\alpha$为学习率：
$$V(s) = V(s) + \alpha[V(s’) - V(s)]$$

为了评估一个policy，进化方法会先固定该policy参数，然后多次模拟对战，取胜利的频率作为该policy胜率的无偏估计。但是每次更新policy都需要在很多次对战之后，并且只利用了每次对战的结果信息，忽视了对战中发生了什么。

相反的，增强学习评估对战中的每个状态。这两种方法都实现了对policy space的搜索，但是后者利用了更多信息，也更加合理。

从本例中，还能看到增强学习的几个关键特征。首先是，从与环境的交互（对战）中学习。其次，有一个清晰的目标，考虑、预见了每次行动对未来的影响。所以，本例中的一个简单的增强学习agent就可能能够通过多步move来给对手设置陷阱。